Mô hình dự đoán là gì? Các công bố khoa học về Mô hình dự đoán

Mô hình dự đoán là một công cụ hoặc phương pháp được sử dụng để dự đoán kết quả dựa trên dữ liệu đã cho. Đối với các vấn đề dự đoán, mô hình dự đoán có thể là m...

Mô hình dự đoán là một công cụ hoặc phương pháp được sử dụng để dự đoán kết quả dựa trên dữ liệu đã cho. Đối với các vấn đề dự đoán, mô hình dự đoán có thể là một thuật toán máy học hoặc một công cụ phân tích dữ liệu khác. Mô hình dự đoán sẽ được đào tạo trên dữ liệu có sẵn, học các mẫu và quy tắc từ dữ liệu đó và sau đó được sử dụng để dự đoán kết quả trên dữ liệu mới. Mỗi mô hình dự đoán có những đặc điểm riêng, và sẽ được chọn dựa trên kiểu dữ liệu, mục tiêu dự đoán và các yêu cầu khác của vấn đề cụ thể.
Mô hình dự đoán là một biểu đồ hoặc công thức mô tả mối quan hệ giữa các biến đầu vào và biến đầu ra trong một hệ thống. Nó được xây dựng dựa trên các quy tắc và mẫu được học từ dữ liệu đào tạo. Mục tiêu của mô hình dự đoán là sử dụng mô hình đã học để dự đoán trạng thái, hành vi hoặc kết quả của các biến đầu ra mới khi chỉ có thông tin về biến đầu vào.

Các mô hình dự đoán có thể thuộc vào nhóm mô hình hồi quy, phân loại hoặc gom cụm, tùy thuộc vào loại dữ liệu đầu vào và loại dự đoán cụ thể. Một số mô hình dự đoán phổ biến bao gồm:

1. Mô hình hồi quy: Dùng để dự đoán giá trị liên tục của biến đầu ra. Ví dụ, mô hình hồi quy tuyến tính sử dụng công thức đươc biểu diễn dưới dạng `y = mx + c`, trong đó `y` là biến đầu ra dự đoán, `x` là biến đầu vào và `m`, `c` là các hệ số dự đoán.

2. Mô hình phân loại: Dùng để phân loại dữ liệu vào các nhóm, ví dụ như phân loại email vào hộp thư rác hay thư thường. Các mô hình phân loại phổ biến bao gồm cây quyết định, máy vector hỗ trợ (SVM) và học sâu.

3. Mô hình gom cụm: Dùng để phân loại dữ liệu thành các nhóm tương tự nhau dựa trên các đặc trưng công việc của chúng. Các mô hình gom cụm phổ biến bao gồm K-Means, K-Medoids và DBSCAN.

Để xây dựng một mô hình dự đoán, phương pháp đào tạo được sử dụng để tìm các quy tắc và mẫu từ dữ liệu huấn luyện. Dữ liệu huấn luyện thường được chia thành tập dữ liệu huấn luyện và tập dữ liệu kiểm tra để đánh giá hiệu suất mô hình. Mô hình dự đoán được đào tạo bằng cách tối ưu hóa hàm mất mát, tối thiểu hóa sai số giữa đầu ra dự đoán và giá trị thực tế của dữ liệu.

Danh sách công bố khoa học về chủ đề "mô hình dự đoán":

Dự đoán cấu trúc protein với độ chính xác cao bằng AlphaFold
Nature - Tập 596 Số 7873 - Trang 583-589 - 2021
Tóm tắt

Protein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗi protein đã biết6,7. Phạm vi bao phủ cấu trúc đang bị thắt nút bởi thời gian từ vài tháng đến vài năm cần thiết để xác định cấu trúc của một protein đơn lẻ. Các phương pháp tính toán chính xác là cần thiết để giải quyết vấn đề này và cho phép tin học cấu trúc lớn. Việc dự đoán cấu trúc ba chiều mà một protein sẽ chấp nhận chỉ dựa trên chuỗi axit amin của nó - thành phần dự đoán cấu trúc của 'vấn đề gấp nếp protein'8 - đã là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm9. Dù đã có những tiến bộ gần đây10–14, các phương pháp hiện tại vẫn chưa đạt đến độ chính xác nguyên tử, đặc biệt khi không có cấu trúc tương đồng nào được biết đến. Tại đây, chúng tôi cung cấp phương pháp tính toán đầu tiên có khả năng dự đoán cấu trúc protein với độ chính xác nguyên tử ngay cả trong trường hợp không có cấu trúc tương tự nào được biết. Chúng tôi đã xác nhận một phiên bản thiết kế hoàn toàn mới của mô hình dựa trên mạng neuron, AlphaFold, trong cuộc thi Đánh giá Cấu trúc Protein Phê bình lần thứ 14 (CASP14)15, cho thấy độ chính xác có thể cạnh tranh với các cấu trúc thử nghiệm trong phần lớn các trường hợp và vượt trội hơn các phương pháp khác đáng kể. Cơ sở của phiên bản mới nhất của AlphaFold là cách tiếp cận học máy mới kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng các sắp xếp nhiều chuỗi, vào thiết kế của thuật toán học sâu.

#dự đoán cấu trúc protein #AlphaFold #học máy #mô hình mạng neuron #sắp xếp nhiều chuỗi #bộ đồ chuẩn hóa #chính xác nguyên tử #tin học cấu trúc #vấn đề gấp nếp protein #CASP14
Phương Trình Dạng Khép Kín Dự Báo Độ Dẫn Thủy Lực của Đất Không Bão Hòa
Soil Science Society of America Journal - Tập 44 Số 5 - Trang 892-898 - 1980
Tóm tắt

Một phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(h), được giới thiệu trong bài báo này. Dạng cụ thể của phương trình này cho phép đưa ra các biểu thức phân tích dạng khép kín cho độ dẫn thủy lực tương đối, Kr, khi thay thế vào các mô hình độ dẫn dự đoán của N.T. Burdine hoặc Y. Mualem. Các biểu thức thu được cho Kr(h) chứa ba tham số độc lập có thể được xác định bằng cách điều chỉnh mô hình giữ nước trong đất đã đề xuất với dữ liệu thực nghiệm. Kết quả thu được từ các biểu thức khép kín dựa trên lý thuyết Mualem được so sánh với dữ liệu độ dẫn thủy lực quan sát cho năm loại đất có đặc tính thủy lực khác nhau. Độ dẫn thủy lực không bão hòa được dự đoán tốt trong bốn trên năm trường hợp. Kết quả cho thấy rằng việc mô tả hợp lý đường cong giữ nước trong đất ở mức chứa nước thấp là quan trọng để dự đoán chính xác độ dẫn thủy lực không bão hòa.

#Herardic #độ dẫn thủy lực #đường cong giữ nước đất #lý thuyết Mualem #mô hình dự đoán #độ dẫn thủy lực không bão hòa #dữ liệu thực nghiệm #điều chỉnh mô hình #đặc tính thủy lực giấy phép.
Ảnh hưởng của phân chia dữ liệu đến hiệu suất của các mô hình học máy trong dự đoán độ bền cắt của đất
Mathematical Problems in Engineering - Tập 2021 - Trang 1-15 - 2021

Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xây dựng công trình. Để thực hiện điều này, một cơ sở dữ liệu gồm 538 mẫu đất thu thập từ dự án nhà máy điện Long Phú 1, Việt Nam, đã được sử dụng để tạo ra các bộ dữ liệu cho quá trình mô hình hóa. Các tỷ lệ khác nhau (tức là 10/90, 20/80, 30/70, 40/60, 50/50, 60/40, 70/30, 80/20, và 90/10) đã được sử dụng để chia bộ dữ liệu thành bộ dữ liệu đào tạo và kiểm tra nhằm đánh giá hiệu suất của các mô hình. Các chỉ số thống kê phổ biến, chẳng hạn như Lỗi Bình Phương Trung Bình (RMSE), Lỗi Tuyệt Đối Trung Bình (MAE) và Hệ Số Tương Quan (R), đã được sử dụng để đánh giá khả năng dự báo của các mô hình dưới các tỷ lệ đào tạo và kiểm tra khác nhau. Ngoài ra, mô phỏng Monte Carlo đã được thực hiện đồng thời để đánh giá hiệu suất của các mô hình đề xuất, có tính đến ảnh hưởng của lấy mẫu ngẫu nhiên. Kết quả cho thấy mặc dù cả ba mô hình ML đều hoạt động tốt, nhưng ANN là mô hình chính xác nhất và ổn định nhất về mặt thống kê sau 1000 lần mô phỏng Monte Carlo (R Trung Bình = 0.9348) so với các mô hình khác như Boosted (R Trung Bình = 0.9192) và ELM (R Trung Bình = 0.8703). Điều tra về hiệu suất của các mô hình cho thấy khả năng dự báo của các mô hình ML bị ảnh hưởng lớn bởi các tỷ lệ đào tạo/kiểm tra, trong đó tỷ lệ 70/30 thể hiện hiệu suất tốt nhất của các mô hình. Một cách ngắn gọn, kết quả được trình bày ở đây thể hiện một cách thức hiệu quả trong việc lựa chọn các tỷ lệ dữ liệu phù hợp và mô hình ML tốt nhất để dự đoán chính xác độ bền cắt của đất, điều này sẽ hữu ích trong các giai đoạn thiết kế và kỹ thuật của các dự án xây dựng.

#Học máy #độ bền cắt của đất #Mạng Nơron Nhân Tạo #Máy Học Tăng Cường #thuật toán Cây Tăng Cường #mô phỏng Monte Carlo #địa chất công trình #phân chia dữ liệu #chỉ số thống kê #kỹ thuật dân dụng
Kết hợp hệ thống ghi nhận và dữ liệu hình ảnh tuyến tiền liệt (PI-RADS) và mật độ kháng nguyên tuyến tiền liệt đặc hiệu (PSA) để dự đoán kết quả sinh thiết ở bệnh nhân chưa từng sinh thiết
BJU International - Tập 119 Số 2 - Trang 225-233 - 2017
Mục tiêu

Đánh giá giá trị của hệ thống điểm Prostate Imaging Reporting and Data System (PI-RADS) cho khảo sát hình ảnh cộng hưởng từ đa thông số (mpMRI) tuyến tiền liệt nhằm phát hiện ung thư tuyến tiền liệt, và các thông số cổ điển như mức độ kháng nguyên tuyến tiền liệt đặc hiệu (PSA), thể tích tuyến tiền liệt và mật độ PSA, để dự đoán kết quả sinh thiết ở bệnh nhân nghi ngờ ung thư tuyến tiền liệt chưa từng sinh thiết.

Bệnh nhân và phương pháp

Phân tích hồi cứu các bệnh nhân thực hiện mpMRI tại bệnh viện chúng tôi và sinh thiết tuyến tiền liệt lần đầu từ tháng 7/2010 đến tháng 4/2014. Sinh thiết tuyến tiền liệt được thực hiện qua ngã tầng sinh môn dưới hướng dẫn siêu âm qua trực tràng. Tổng cộng, 14 mẫu sinh thiết được lấy một cách hệ thống ở tất cả các bệnh nhân. Thêm hai mẫu sinh thiết mục tiêu bằng cách hợp nhất nhận thức được thêm vào mỗi tổn thương ở bệnh nhân có tổn thương nghi ngờ hoặc không rõ ràng trên mpMRI. Sử dụng hệ thống điểm PI-RADS phiên bản 2.0 để mô tả các phát hiện trên MRI. Phân tích đơn biến và đa biến được thực hiện để xác định các yếu tố dự đoán có ý nghĩa của ung thư tuyến tiền liệt và ung thư tuyến tiền liệt lâm sàng có ý nghĩa.

Kết quả

Tổng cộng, 288 bệnh nhân được phân tích. Tuổi trung vị của bệnh nhân, mức độ PSA, thể tích tuyến tiền liệt và mật độ PSA lần lượt là 69 tuổi, 7,5 ng/mL, 28,7 mL, và 0,26 ng/mL/mL. Kết quả sinh thiết cho thấy các dạng lành tính, ung thư không quan trọng về mặt lâm sàng, và ung thư quan trọng về mặt lâm sàng tương ứng với 129 (45%), 18 (6%) và 141 (49%) bệnh nhân. Phân tích đa biến cho thấy điểm số PI-RADS v2 và mật độ PSA là những yếu tố dự đoán độc lập cho ung thư tuyến tiền liệt và ung thư tuyến tiền liệt có ý nghĩa lâm sàng. Khi kết hợp điểm số PI-RADS v2 và mật độ PSA, điểm số PI-RADS v2 từ 4 trở lên và mật độ PSA từ 0.15 ng/mL/mL hoặc điểm số PI-RADS v2 là 3 và mật độ PSA từ 0.30 ng/mL/mL liên quan đến tỷ lệ phát hiện ung thư tuyến tiền liệt có ý nghĩa lâm sàng cao nhất (76–97%) trong lần sinh thiết đầu tiên. Trong nhóm bệnh nhân này có kết quả sinh thiết âm tính, 22% sau đó được chẩn đoán là ung thư tuyến tiền liệt. Ngược lại, điểm số PI-RADS v2 từ 3 trở xuống và mật độ PSA dưới 0.15 ng/mL/mL cho kết quả không có ung thư tuyến tiền liệt có ý nghĩa lâm sàng và không có thêm phát hiện ung thư tuyến tiền liệt trong các sinh thiết tiếp theo.

Kết luận

Sự kết hợp của điểm số PI-RADS v2 và mật độ PSA có thể giúp trong quá trình ra quyết định trước sinh thiết tuyến tiền liệt và trong chiến lược theo dõi ở bệnh nhân chưa từng sinh thiết. Bệnh nhân có điểm số PI-RADS v2 từ 3 trở xuống và mật độ PSA dưới 0.15 ng/mL/mL có thể tránh các sinh thiết không cần thiết.

#PI-RADS #PSA density #prostate cancer #biopsy #MRI #predictive model
Dự đoán các thuộc tính ADMET
ChemMedChem - Tập 1 Số 9 - Trang 920-937 - 2006
Tóm tắt

Bài tổng quan này mô tả một số phương pháp và kỹ thuật hiện đang được sử dụng để đưa ra các mô hình in silico nhằm dự đoán các thuộc tính ADMET. Bài báo cũng thảo luận một số yêu cầu cơ bản đối với việc tạo ra các mối quan hệ ADMET có tính toán học có cơ sở thống kê và dự đoán, cũng như một số cạm bẫy và vấn đề đã gặp phải trong các nghiên cứu này. Ý định của các tác giả là giúp người đọc nhận thức rõ hơn về một số thách thức liên quan đến việc phát triển các mô hình in silico ADMET có ích cho quá trình phát triển thuốc.

#Dự đoán thuộc tính ADMET #mô hình in silico #phát triển thuốc #thống kê #phát hiện thử nghiệm #thách thức
Mô Hình PBPK Dự Đoán Tương Tác Thuốc Qua CYP3A4 và P-gp: Mạng Lưới Mô Hình của Rifampicin, Itraconazole, Clarithromycin, Midazolam, Alfentanil, và Digoxin
CPT: Pharmacometrics and Systems Pharmacology - Tập 7 Số 10 - Trang 647-659 - 2018
Theo các tài liệu hướng dẫn hiện tại của Cơ quan Quản lý Thực phẩm và Dược phẩm Hoa Kỳ (FDA) và Cơ quan Dược phẩm Châu Âu (EMA), mô hình dược động học dựa trên sinh lý (PBPK) là một công cụ mạnh mẽ để khám phá và dự đoán định lượng tương tác thuốc-thuốc (DDI) và có thể cung cấp một phương án thay thế cho các thử nghiệm lâm sàng chuyên dụng. Nghiên cứu này cung cấp các mô hình PBPK toàn cơ thể của rifampicin, itraconazole, clarithromycin, midazolam, alfentanil và digoxin trong khuôn khổ Bộ Phần Mềm Dược Học Hệ Thống Mở (OSP). Tất cả các mô hình được xây dựng độc lập, kết hợp với các thông số tương tác đã được báo cáo, và được đánh giá lẫn nhau để xác minh hiệu suất dự đoán của chúng bằng cách mô phỏng các nghiên cứu DDI lâm sàng đã công bố. Tổng cộng có 112 nghiên cứu đã được sử dụng để phát triển mô hình và 57 nghiên cứu dùng để dự đoán DDI. 93% tỷ lệ diện tích dưới đường cong của nồng độ huyết tương theo thời gian (AUC) dự đoán và 94% tỷ lệ nồng độ đỉnh huyết tương (Cmax) nằm trong hai lần giá trị quan sát được. Nghiên cứu này đặt nền tảng cho việc đánh giá nền tảng OSP về các dự đoán PBPK đáng tin cậy đối với DDI do enzym và vận chuyển dang môi trong quá trình phát triển thuốc được thông tin bằng mô hình. Tất cả các mô hình được trình bày đều là mã nguồn mở và được tài liệu hóa minh bạch.
#Mô hình PBPK #tương tác thuốc #Rifampicin #Itraconazole #Clarithromycin #Midazolam #Alfentanil #Digoxin #FDA #EMA #Dự đoán CYP3A4 #P-gp #Mô hình dược động học.
Mô hình toán học dự đoán sự suy giảm kháng nguyên bề mặt virus viêm gan B sau khi tiêm vắc-xin viêm gan B
Clinical and Experimental Immunology - Tập 116 Số 1 - Trang 121-126 - 2001
TÓM TẮT

Việc xác định mức độ kháng thể trong huyết thanh chống lại kháng nguyên bề mặt virus viêm gan B (anti-HBs) sau khi tiêm vắc-xin viêm gan B hiện nay là phương pháp đơn giản duy nhất có sẵn để dự đoán sự suy giảm sự bảo vệ và lập kế hoạch tiêm liều nhắc lại. Tổng cộng 3085 người nhận vắc-xin từ huyết tương và vắc-xin tái tổ hợp đã được theo dõi trong 10 năm để xác định động học sản xuất anti-HBs và xây dựng một mô hình toán học có thể dự đoán hiệu quả sự suy giảm mức độ anti-HBs. Mức đỉnh anti-HBs đạt được 68 ngày sau liều vắc-xin tái tổ hợp cuối cùng và 138 ngày sau liều vắc-xin từ huyết tương cuối cùng. Tuổi của người được tiêm vắc-xin ảnh hưởng tiêu cực đến mức độ anti-HBs và cũng ảnh hưởng đến thời gian cần thiết để đạt đến đỉnh anti-HBs. Mô hình toán học hai chiều (mức độ log10, thời gian log10) của sự suy giảm anti-HBs đã được xây dựng trên mẫu những người nhận vắc-xin tái tổ hợp và sau đó được kiểm chứng trên các mẫu khác của người nhận vắc-xin tái tổ hợp hoặc từ huyết tương. Tuổi tác, giới tính, loại vắc-xin (tái tổ hợp hoặc từ huyết tương), số liều vắc-xin (ba hoặc bốn) không ảnh hưởng đến mô hình toán học của sự suy giảm kháng thể. Chương trình có thể được tải xuống tại trang web: http://www2.stat.unibo.it/palareti/vaccine.htm. Việc đưa vào một xác định anti-HBs được thu thập sau khi đạt đỉnh, chương trình tính toán dự đoán sự suy giảm anti-HBs cá nhân và cho phép lập kế hoạch chính sách tiêm nhắc lại hiệu quả.

Áp dụng mô hình Irt 3 tham số vào đo lường và phân tích độ khó, độ phân biệt và mức độ dự đoán của các câu hỏi trong đề thi trắc nghiệm khách quan
Trong bài viết này, chúng tôi sử dụng mô hình IRT 3 tham số để đo lường độ khó, độ phân biệt của các câu hỏi trong đề thi trắc nghiệm khách quan nhiều lựa chọn, đồng thời khảo sát sự ảnh hưởng của mức độ dự đoán của thí sinh khi trả lời câu hỏi đối với việc đo lường và đánh giá năng lực của thí sinh. Dữ liệu trong bài viết được thu thập từ một mẫu ngẫu nhiên các bài thi cuối kì môn Toán Cao cấp của sinh viên Khóa 14 Trường Đại học Kinh tế - Luật, ĐHQG TP Hồ Chí Minh. Việc xử lí dữ liệu được thực hiện bằng gói lệnh “ ltm ” của phần mềm R. Kết quả của bài viết giúp giáo viên đánh giá đúng chất lượng của đề thi và năng lực của thí sinh. Normal 0 false false false EN-US X-NONE X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-name:"Table Normal"; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-parent:""; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-para-margin-top:0cm; mso-para-margin-right:0cm; mso-para-margin-bottom:10.0pt; mso-para-margin-left:0cm; line-height:115%; mso-pagination:widow-orphan; font-size:11.0pt; font-family:"Calibri","sans-serif"; mso-ascii-font-family:Calibri; mso-ascii-theme-font:minor-latin; mso-hansi-font-family:Calibri; mso-hansi-theme-font:minor-latin;}
#lí thuyết ứng đáp câu hỏi #mô hình IRT 3 tham số #trắc nghiệm khách quan nhiều lựa chọn #phần mềm R.
Đánh giá tổng hợp hiệu quả của các mô hình nông lâm kết hợp theo hướng phát triển bền vững dọc hành lang đường Hồ Chí Minh đoạn qua A Lưới, tỉnh Thừa Thiên - Huế
Normal 0 false false false MicrosoftInternetExplorer4 Dựa vào cơ sở lí luận cần thiết, sự phát triển kinh tế - xã hội và thực tiễn kết hợp sản xuất nông lâm nghiệp tại huyện A Lưới, tỉnh Thừa Thiên - Huế, từ năm 2011 đến 2013, các nghiên cứu đã xây dựng được một số mô hình nông lâm kết hợp theo hướng phát triển bền vững dọc hành lang đường Hồ Chí Minh đoạn qua A Lưới. Các mô hình đó gồm: vườn nhà với cây rừng; vườn nhà với cây công nghiệp; vườn nhà với cây ăn quả;rừng – nương hoặc bãi chăn thả - ruộng; vườn - ao - chuồng - rừng. Các mô hình này được nghiên cứu về cấu trúc, phương thức sản xuất, điểm mạnh, hạn chế và được đánh giá hiệu quả kinh tế, xã hội, môi trường làm nổi bật tính thích ứng của mỗi mô hình. /* Style Definitions */ table.MsoNormalTable {mso-style-name:"Table Normal"; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-parent:""; mso-padding-alt:0in 5.4pt 0in 5.4pt; mso-para-margin:0in; mso-para-margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:10.0pt; font-family:"Times New Roman"; mso-ansi-language:#0400; mso-fareast-language:#0400; mso-bidi-language:#0400;}
#mô hình nông lâm kết hợp #phát triển bền vững #đường Hồ Chí Minh
Tổng số: 65   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7